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fi 要 : [目的 /意义 ] 杭 理 基 于 知识 图 谱 的 实体 检索 的 研究 脉络 和 重点 ,探索 未 来 该 领域 的 发 展 方向 。 [ 方法 过程] 概述 
基于 知识 图 谱 的 实体 检索 的 形式 化 定义 、 实 现 路 径 以 及 主要 的 数据 源 ;根据 检索 任务 ,将 实体 检索 划分 为 匹配 检 
索 、 扩 展 检索 和 推荐 检索 3 种 实现 场景 ,并 对 其 实现 方法 进行 综述 。[ 结果 /结论 ] 随 着 应 用 的 不 断 深入 ,基于 知识 
图 谱 的 实体 检索 研究 开始 关注 如 何 优化 用 户 的 检索 体验 和 提供 多 样 性 的 检索 结果 ,未 来 将 在 检索 结果 可 解释 性 、 
跨 领 域 知识 图 谱 检 索 等 多 个 方面 展开 深入 的 研究 。 
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on 索 过 程 中 知识 的 理解 层次 。 
el = 近年 来 ,有 关 知 识 图 谱 的 研究 取得 了 极 大 的 进展 ， 
检索 是 人 们 获得 信息 和 知识 的 重要 途径 。 随 着 技 | 关于 知识 图 谱 的 综述 性 研究 也 陆续 发 表 , 这 些 综述 性 
发展 ,检索 技术 已 经 从 最 初 由 用 户 提供 检索 需求 、 | 研究 包括 对 知识 抽取 、 知 识 表 示 、 知 识 推理 的 研究 ” ， 
系 绩 返回 给 用 户 信息 列表 ,逐步 改进 到 能 够 主动 为 用 | EE AR E 。 
t 然而 ,在 这 些 研究 中 , 仍 缺 少 对 知识 图 谱 在 实体 检索 中 
的 研究 进展 进行 系统 梳理 的 文献 。 为 此 ,本 文 将 Web 
of Science 核心 合集 作为 主要 文献 来 源 , 以 主题 = 
(“knowledge graph” or “KG” ) and “retriev * ”为 检索 


J 


检索 对 用 户 来 说 ,信息 消费 代价 相对 不 高 ,同时 增强 了 ” 式 进 行 检 索 ( 检 索 时 间 为 2019 年 4 月 11 日 )。 对 于 检 


用 让 的 体验 感 。 研究 表明 ” ,在 用 户 的 信息 检索 行为 | 索 出 来 的 结果 ,首先 进行 了 歧义 筛选 ,将 医学 领域 的 文 


中 (以 实体 作为 检索 意图 占 检 索 活动 的 比重 达到 | 献 中 表示 “恢复 "(retrieval) 的 检索 结果 剔除 ,然后 将 研 
52% ,这 使 得 实体 检索 成 为 检索 系统 必 不 可 少 的 功能 | 究 领 域 限定 为 计算 机 和 信息 科学 相关 ,再 通过 人 工 阅 
之 一 。 读 去 除了 主要 内 容 与 基于 知识 图 谱 的 实体 检索 无 太 多 


目前 , 随 着 大 规模 知识 图 谱 ( 又 称 知识 库 ) 的 出 | 联系 的 文献 ,最 后 保留 81 篇 文献 作为 本 文 的 主体 素 
现 , 如 YAGOL „DBpedia!“ „Freebase! | NELL!" | Pro- 材 。 
base ”等 ,方便 了 检索 系统 从 数据 资源 中 抽取 组织 和 | 1.1 知识 图 谱 概 述 及 其 在 检索 中 的 应 用 
管理 知识 。 基 于 知识 图 谱 的 实体 检索 系统 主要 是 利用 知识 图 谱 旨 在 描述 现实 世界 中 存在 的 实体 以 及 实 
数据 集 的 结构 化 特征 ,通过 实体 及 实体 之 间 的 语义 关 | 体 之 间 的 关系 ,从 本 质 上 来 看 ,是 一 种 语义 网 络 。 早 在 
系 来 表达 知识 ,不 仅 能 够 帮助 用 户 检 索 和 发 现 感 兴 20 世纪 60 年 代 末 ,M. R. Quillian 就 提出 通过 构建 复 
的 相关 实体 ,也 能 够 以 探索 的 形式 为 用 户 提供 深入 检 | 杂 的 元 素 网 络 关联 ,来 模拟 人 类 语言 行为 的 知识 基础 ， 
索 的 服务 。 这 种 方式 从 语义 层面 理解 用 户 意 图 ,借助 | 利用 带 有 标记 的 有 向 图 ,借助 事物 属性 以 及 事物 之 间 
知识 图 谱 的 网 络 信息 实现 复杂 的 关联 查询 ,提升 了 检 | 的 语义 关系 发 现 与 节点 有 关 的 知识 ”。 随 后 ,R. 下 . 
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Simmons :在 进行 自然 语言 问答 系统 的 研究 时 ,将 M. 
R. Quillian 设计 的 知识 表示 模型 定义 为 “语义 网 络 ” 
(semantic network) ,认为 其 是 语义 分 析 方 法 上 的 初步 
探索 。 

语义 网 络 和 知识 图 谱 均 采用 图 的 形式 进行 知识 表 
示 。 但 语义 网 络 中 节点 表示 对 象 和 概念 , 边 表示 节点 


与 新 技术 的 融合 。 
1.2 基于 知识 图 谱 的 实体 检索 
实体 是 指 现实 或 虚拟 世界 中 具有 特定 语义 的 任何 
对 象 或 者 概念 ,是 知识 图 谱 中 的 最 基本 元 素 。 同 时 , 实 
体 间 都 存在 一 定 的 关系 ,其 基本 形式 主要 包括 (实体 1 
关系 -实体 2) 和 (实体 - 属性 - 属性 值 ) 等 。 


之 间 的 关系 ,节点 和 边 的 值 可 由 用 户 进行 定义 ,这 就 为 
多 源 数据 融合 带 来 了 困难 ;而 知识 图 谱 中 ,节点 表示 实 
体 或 者 属性 值 , 边 表示 关系 或 者 属性 ,将 事物 的 属性 以 
及 事物 之 间 的 语义 关系 显 式 地 表示 出 来 ,利用 三 元 组 
的 形式 进行 刻画 。 为 此 ,知识 图 谱 的 构建 更 加 规范 , 结 
构 简 洁 直观 、 使 用 灵活 丰富 ,也 确保 了 数据 的 质量 。 近 
年 来 , 随 着 开放 链接 (linked open data, ,简称 LOD ) 等 项 
Be 的 开展 ， 大量 RDF (resource description frame- 
wD 数据 被 发 布 , 互 联网 从 文档 万 维 网 变 成 了 包含 大 
量 揪 述 各 种 实体 和 实体 之 间 让 富 关系 的 数据 万 维 网 
(web of data) 。2012 年 5 月 ,Google 发 布 了 知识 图 谱 ， 
初衷 是 为 了 提高 搜索 引擎 的 能 力 ,改善 用 户 的 搜索 
质量 以 及 搜索 体验 。 最 初 的 知识 图 谱 是 建立 在 公开 的 
R! 


89 数据 源 之 上 的 , 随 着 机 器 学 习 和 数据 挖 所 方法 的 


卓 衣 ,入 们 开始 从 非 结构 化 的 网 页 数据 中 自动 发 现 新 


如 果 将 实体 表示 为 e, 基 于 知识 图 谱 的 实体 检索 
可 采用 1D,q,R(dq,ei)} 进行 表示 。 其 中 D 是 知识 图 谱 
库 , 即 知识 库 ,知识 库 由 大 量 实体 及 实体 之 间 的 关系 组 
成 ;q 表示 为 用 户 的 查询 请 求 ,R(d,ei) 则 表示 用 来 度 
量 用 户 的 查询 与 数据 集中 实体 ei 的 相关 性 或 相似 性 ， 
并 根据 评分 结果 ,给 出 针对 q 的 ei 结果 排序 。 

一 般 来 说 ,基于 知识 图 谱 的 实体 检索 实现 路 径 如 
1 所 示 ,主要 分 为 2 个 部 分 :知识 图 谱 构建 过 程 和 检 
索 实 现 过 程 。 

知识 图 谱 的 构建 是 一 个 迭代 的 过 程 ,每 一 轮 迭 代 
均 包 含 知识 抽取 、 知 识 融 合 和 知识 加 工 3 个 阶段 :中 知 
识 抽取 是 指 从 多 源 异 构 数 据 源 中 抽取 实体 、 属 性 以 及 
实体 间 的 相互 关系 ,在 此 基础 上 形成 本 体 化 的 知识 表 
达 ;@) 通 过 抽取 获取 的 新 知识 需要 进行 整合 ,这 个 过 程 
主要 实现 2 个 目标 :实体 消 歧 和 共 指 消解 ,前 者 为 解决 


的 器 体 和 实体 间 的 关系 "9 。 目 前 ,大 规模 知识 图 谱 库 
的 于 完 和 应 用 在 学 术 界 和 工业 界 引起 了 足够 的 注意 
力 5 融 已 被 广泛 应 用 于 智能 搜索 .智能 问答 .个 性 化 扒 
PPI BD RET, 
SSL BRAS PA FETE: eT PRL — PE BEE eE 
溢 的 基础 和 骨架 。 领 域 本 体 是 描述 一 个 领域 的 
合 , 其 所 定义 的 类 关系、 函数 ,公理 和 实例 ,在 
模式 层 约束 和 管理 知识 图 谱 。 在 现 有 的 研究 成 果 中 ， 
依托 于 已 有 的 成 熟 本 体 库 , 基 于 知识 图 谱 的 实体 检索 
在 生物 医学 领域 的 研究 和 实践 较为 深入 。 将 单一 
乃至 多 个 来 源 "”” 的 异 构 数据 整合 成 知识 图 谱 用 于 
检索 ,是 学 者 们 早期 关注 的 重点 。 随 着 应 用 研究 的 深 
入 ,整合 知识 图 谱 仅 仅 用 于 检索 已 无 法 满足 用 户 需求 ， 
在 检索 中 发 现 新 的 知识 ,进行 知识 推理 ”-” ,乃至 借 
助 数据 挖掘 ”的 方法 进行 知识 发 现 的 研究 也 开始 
展开 。 目 前 ,基于 知识 图 谱 的 实体 检索 开始 应 用 在 更 
多 的 领域 ,例如 空间 地 理 研究 ”农业 生产 
等 ,在 其 他 领域 ,例如 科研 ” ”和 企业 ”同样 关注 
该 技术 对 于 知识 管理 的 应 用 价值 。 从 整体 上 看 ,基于 
知识 图 谱 的 实体 检索 的 应 用 场景 ,从 最 初 单纯 地 构建 
知识 图 谱 用 于 检索 ,发 展 到 之 后 集成 挖掘 推理 的 平台 
级 应 用 ,领域 也 从 成 熟 的 生物 医药 领域 不 断 扩展 ,包括 


同名 实体 产生 歧义 的 问题 ,后 者 则 是 将 指向 同一 实体 
的 项 关联 (合并 ) 到 唯一 正确 的 实体 对 象 ;@ 知 识 加 工 
是 知识 结构 化 的 过 程 ,构建 本 体 是 知识 加 工 阶段 常 采 
用 的 方式 , 即 设 定 类 、 实 例 、 属 性 .关系 、 规 则 等 元 素 的 
标准 。 知 识 推理 和 质量 评估 是 知识 加 工 的 两 个 重要 过 
程 。 其 中 ,知识 推理 主要 目的 是 建立 实体 间 的 新 关联 ， 
这 有 助 于 拓展 和 丰富 知识 图 谱 ;质量 评估 通常 与 实体 
对 章 的 任务 同时 进行 ,通过 舍弃 置信 度 较 低 的 知识 , 保 
留置 信 度 较 高 的 知识 ,保障 知识 图 谱 的 数据 质量 。 

在 用 户 检索 过 程 中 ,核心 环节 是 如 何 将 用 户 的 检 
索 输 入 与 知识 图 谱 进 行 交互 。 首 先 , 需 要 系统 将 用 户 
输入 的 自然 语言 检索 式 、 实 体 对 或 SparQL 语句 ,转化 
成 查询 子 图 并 与 整个 知识 图 谱 进 行 匹配 。 随 后 ,检索 
系统 将 识别 检索 式 中 的 语义 实体 ,并 对 实体 间 的 结构 
关系 进行 查询 扩展 与 推理 。 最 后 ,系统 对 检索 处 理 的 
结果 进行 相关 性 的 排序 ,将 最 能 符合 用 户 需求 的 结果 
提供 给 用 户 。 在 实施 检索 过 程 中 , 由 于 检索 处 理会 受 
到 不 同 匹配 策略 的 影响 ,同时 为 了 提高 检索 的 效率 , 系 
统 还 需要 构建 相应 的 存储 方式 和 索引 。 具 体 过 程 见 
l 
1.3 主要 数据 集 

大 规模 知识 图 谱 是 实体 检索 的 基础 。 在 国外 知识 
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EE 
排序 与 分 类 结果 
图 1 知识 图 庶 的 检索 路 径 


图 谱 的 成 熟 产 品 包括 :莱比锡 大 学 的 DBpedia, 
MeétaWeb (2010 年 被 Google 收购 ) 的 Freebase , Google 
i owledge Graph 与 Knowledge Vault 维基 媒体 基金 
ZS Wikidata, DWR + 普 朗 克 研究 所 的 YAGO, 微软 
公司 的 Probase 和 Bing Satori \ 沃 尔 夫 勒 姆 公司 的 Wolf- 
rdm_Alpha Facebook 公司 的 Fackbook Social Graph 以 及 
JOPABEAAEACCHEAY ImageNet。 这 些 知识 图 谱 目 前 应 用 在 多 

Aa, 如 Google Search Engine , Wikipedia, Apple Siri 
或 清算 机 视觉 等 产品 。 

导 国 内 商业 机 构 在 大 规模 知识 图 谱 的 研究 上 也 取得 
了 一 定 成 果 , 例 如 百度 公司 应 用 于 百度 搜索 的 百度 知 
WAN ` 应 用 于 搜狗 搜索 引擎 的 搜狗 知 立方 等 。 国 内 
一 是 研 究 机构 的 知识 图 谱 包 括 复旦 大 学 GDM 实验 室 
的 CEN-Dbpedia、 北 京 大 学 的 PKU-PIE、 清 华 大 学 的 
XIORE .中 国 科学 院 自动 化 研究 所 的 Belief-Engine 等 。 


2 实体 检索 的 应 用 


加 


索 过 程 中 ,系统 更 注重 “知识 ”概念 本 身 ,而 非 知识 概 
念 外 在 的 形式 特征 。 用 户 输入 检索 请 求 后 ,系统 需要 
对 用 户 的 需求 进行 语义 理解 ,形成 查询 子 图 ,实现 与 知 
识 图 谱 的 匹配 计算 。 最 后 ,检索 返回 的 结果 也 是 相关 
实体 实体 组 或 者 实体 关系 的 三 元 组 。 相 较 于 单纯 的 
包含 有 用 户 检索 式 文 本 片段 的 检索 结果 而 言 ,基于 知 
识 图 谱 的 实体 检索 结果 提供 了 更 丰富 的 语义 特征 和 结 
构 化 表示 形式 。 

基于 知识 图 谱 的 检索 与 基于 本 体 的 检索 虽 有 很 多 
的 相似 之 处 ,但 本 体 是 从 schema 的 角度 来 进行 定义 ， 
而 知识 图 谱 更 强调 数据 层 的 构建 ,使 得 基于 知识 图 谱 
的 检索 相 较 于 基于 本 体 的 检索 多 了 结构 相似 性 .路 径 
距离 等 图 算法 中 应 用 到 的 方法 。 

张 香 玲 等 ”将 实体 检索 分 为 相关 实体 检索 和 相 
似 实体 检索 。 本 文 认为 ,在 知识 图 谱 的 实体 检索 应 用 
过 程 中 ,研究 的 重点 是 如 何 计算 用 户 非 结构 化 的 检索 
需求 与 知识 图 谱 网 络 形式 之 间 的 语义 匹配 。 随 着 实践 
应 用 的 深入 ,研究 的 重点 也 开始 关注 如 何 优化 用 户 的 
检索 体验 和 提供 多 样 性 的 检索 结果 上 。 为 此 ,在 上 述 
研究 ”的 基础 之 上 ,本 文 将 基于 知识 图 谱 的 实体 检索 
划分 为 3 种 任务 场景 :匹配 检索 、 扩 展 检 索 和 推荐 检 
索 。 
2.1 匹配 检索 

基于 知识 图 谱 的 实体 检索 ,在 匹配 算法 上 , 相 较 于 
不 基于 知识 图 谱 的 实体 检索 ,除了 语义 相似 性 之 外 ,还 
多 了 结构 相似 性 ,在 丰富 了 语义 特征 的 同时 ,对 匹配 计 
算 以 及 如 何 对 候选 实体 进行 排序 提出 了 新 的 要 求 。 一 
般 来 说 ,匹配 检索 的 基本 思路 是 :首先 为 每 个 实体 创建 
生成 文档 ,将 每 个 实体 相关 的 三 元 组 看 作 实 体 的 生成 


基于 知识 图 谱 的 实体 检索 ,对 数据 资源 组 织 有 更 
细致 的 要 求 ,不 仅 要 考虑 数据 资源 的 外 部 特征 ,更 需要 
通过 三 元 组 抽取 、 知 识 融 合 和 知识 加 工 这 一 系列 的 过 
程 , 将 数据 资源 组 织 成 结构 化 的 知识 表达 形式 。 在 检 


文档 ,计算 文档 与 用 户 查 询 之 间 的 相关 度 ,排序 后 得 到 
候选 实体 “ ” 。 结 构 性 实体 模型 和 层次 结构 实体 模 


型 是 2 种 主要 的 匹配 计算 模型 ,模型 的 对 照 如 图 2 所 


7N: 


谓词 类 型 >| ma | 


2 实体 模型 对 照 
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图 2 中 ,a 图 为 结构 性 实体 模型 ,b 图 为 层次 结构 
性 实体 模型 。 从 图 中 可 以 看 出 ,结构 性 实体 匹配 模 
型 采用 谓词 结构 表示 实体 ,但 没有 利用 到 谓词 之 间 
的 语义 信息 ;而 层次 结构 性 实体 模型 则 采用 两 层 结 
构 ,通过 实体 谓词 的 类 型 ,为 检索 匹配 计算 提供 了 更 
多 的 语义 特征 。 实 验 表明 ,层次 结构 性 实体 模型 比 
无 结构 化 实体 模型 以 及 结构 化 性 实体 模型 的 检索 效 
果 都 要 好 。 
匹配 计算 的 效率 问题 ,是 研究 者 考虑 的 另 一 个 重 
要 的 问题 。 在 众多 的 研究 中 ,构建 索引 和 数据 分 区 是 
主要 的 研究 策略 。F，Lashkari 等 混合 了 反 向 索引 、 
Treap 和 wavelet 树 ,为 实体 类 型 和 关键 字 构 建 了 语义 


2.2 扩展 检索 

借助 于 知识 图 谱 网 络 ,实体 检索 往往 有 着 更 大 的 
自由 度 ,其 目标 是 从 用 户 输入 的 实体 对 ,甚至 是 自然 语 
言 推断 用 户 的 检索 需求 ,而 非 之 前 的 结构 化 语句 和 不 
包括 关系 的 实体 集合 ,这 样 扩展 检索 就 能 帮助 不 了 解 
知识 图 谱 以 及 不 熟悉 检索 语言 的 用 户 为 其 提供 检索 服 
务 。 为 此 ,扩展 检索 的 目标 已 不 再 是 满足 用 户 基 本 的 
今 索 需求 ,关注 用 户 多 样 化 .多 层次 的 检索 需求 成 为 研 
究 的 重点 。 

一 般 来 说 ,实体 扩展 需要 检索 系统 能 够 找到 具有 
共同 语义 特征 的 实体 ,并 给 出 候选 实体 集合 。 为 此 , 计 
算 实体 之 间 的 相似 性 ,找到 与 用 户 查 询 相 似 的 实体 集 


混合 索引 数据 结构 ,提高 了 检索 效率 。A，Katib 等 
BPPT RIQ 工具 ,通过 使 用 过 滤 索引 ,以 及 每 组 相似 的 
RBR 图 的 单独 索引 ,实现 高 效 查询 。 在 数据 分 区 方面 ， 
YecHao 等 "提出 一 种 面向 关联 的 图 分 区 方法 Asse ,在 
克 沿 过 程 中 明显 减少 了 各 分 区 之 间 的 交互 ,从 而 提升 
RES. W. Zheng 等 ” 在 天 际 线 查询 中 ,利用 处 于 天 际 
线 的 实体 ,来 进行 数据 分 区 ,从 而 避免 一 些 不 必要 的 分 
oS 对 入 候选 集 。 此 外 ,也 有 学 者 直接 从 候选 集 修剪 方 
画 愉 手 进行 优化 ,通过 知识 图 谱 构 建 摘要 , 极 大 地 改善 
GB 图 匹配 的 效率 '"。 也 有 学 者 "利用 预先 存储 的 
路 简 视 图 , 重 写 知识 图 谱 中 的 路 径 查 询 , 避免 了 指数 级 
的 轻 套 循环 和 路 径 候选 集 。 

图 谱 的 广泛 应 用 ,学 者 们 发 现 知 
识 图 谱 本 身 存在 大 量 实体 关系 和 属性 缺失 的 问题 ( 如 
DBpedia) ,同时 ,节点 之 间 的 关系 也 存在 着 不 确定 性 。 
如 何 提 高 匹配 检索 的 准确 性 ,成 为 研究 的 重点 。 解 决 
这 一 类 问题 常用 的 方法 是 :图 的 切割 以 及 实体 预测 。 
有 研究 "通过 迭代 ,不 断 地 切割 不 确定 图 ,将 不 合格 
的 匹配 结果 剪 掉 可 以 在 一 定 程度 上 提高 检索 效率 。 然 


合 (或 种 子 集合 ) ,是 实现 扩展 检索 的 基本 方法 。 如 芯 . 
Z. Sun 等 在 用 户 提 出 查询 请 求 时 ,根据 不 同 的 侧重 
点 ,基于 不 同 语义 对 实体 之 间 的 相似 性 进行 计算 ,获得 
检索 结果 集 。D，Mottin 等 提出 的 EQ 算法 ,基于 子 
图 同 构 和 强 模 拟 来 构建 等 价 关 系 , 以 返回 相似 的 答案 
Sik, N. Jayaram 等 ”设计 的 GQBE 也 具有 同样 的 功 
能 ,其 方法 是 构建 最 大 查询 图 和 查询 点 阵 , 其 效果 要 优 
于 EQ。 

对 于 用 户 采 用 自然 语句 作为 检索 式 的 问题 ,实现 
扩展 检索 主要 采用 基于 规则 和 模板 的 方法 。 文献 
[53] 采 用 将 长 检索 式 缩减 为 一 个 或 多 个 子 查询 、 赋 予 
各 实体 权重 扩展 查询 的 方法 来 完善 信息 .查询 重 构 。 
文献 [54] 则 采用 基于 模板 的 方式 ,将 复杂 的 自然 语言 
构成 的 问题 生成 结构 化 的 SparQL 语句 ,以 解决 基于 名 
法 无 法 适应 复杂 问题 的 情况 。 文 献 [55] 针 对 问答 系 
统 , 利 用 RDF 三 元 组 中 的 谓词 约束 其 主体 和 客体 的 类 
型 ,以 此 生成 查询 图 以 涵盖 不 同类 型 的 问题 。 文 献 
[56] 则 从 非 结 构 化 数据 源 中 提取 新 的 三 元 组 ,扩展 知 
识 图 谱 , 并 赋予 新 三 元 组 与 对 应 的 原始 三 元 组 之 间 的 


而 ,这 种 方法 无 法 解决 不 确定 图 存在 的 可 达 性 问题 。 
为 此 ,有 研究 “借助 概率 计算 ,选择 一 些 不 确定 的 边 
缘 使 其 概率 接近 0 或 者 1, 以 此 降低 检索 时 的 不 确定 
性 。 为 解决 知识 图 谱 的 不 完整 性 ,研究 主要 是 围绕 对 
缺失 部 分 进行 预测 ,概率 语言 模型 是 常 采用 的 方法 , 通 
过 对 缺失 的 三 元 组 和 实体 进行 预测 ,来 填补 知识 图 谱 
中 缺失 的 部 分 ““ 。 然 而 ,在 概率 计算 时 ,大 多 假设 
候选 实体 和 查询 关键 词 分 布 是 条 件 独 立 的 ,忽略 了 两 
者 在 文档 中 的 语义 关联 。 为 此 ,一 些 研 究 尝 试 采 用 计 
算 实 体 类 别 和 检索 关键 词 之 间 的 包含 度 "” ,确保 候选 


可 替代 的 权重 ,确保 用 户 输 入 非 专 业 术语 时 提供 符合 
检索 意图 的 信息 。 

识别 检索 用 户 的 潜在 需求 ,是 扩展 检索 的 男 一 个 
需要 解决 的 问题 。 文 献 [57 ] 基 于 路 径 的 语义 特征 来 
描述 各 实体 的 共同 方面 ,明确 了 用 户 想 要 返回 的 结果 
集 的 特征 。 推 断 用 户 的 潜在 检索 意图 是 近年 来 的 一 种 
新 的 研究 视角 ,通过 分 析 用 户 输入 实体 的 结构 特征 , 综 
合 各 分 支 的 相似 实体 ,模拟 用 户 的 潜在 兴趣 ,或 判 
断 用 户 输入 的 实体 类 型 ,计算 信息 增益 ,进而 推断 用 户 
的 检索 意图 ”并 给 出 检索 结果 。 文 献 [60] 则 是 利用 


实体 能 够 包含 于 结果 集中 ,也 有 研究 引入 了 接近 度 的 
概念 ,获得 相似 的 候选 实体 集 。 


实例 驱动 的 方法 来 将 语义 相同 但 结构 不 同 的 子 图 进行 
等 价 匹配 ,实现 检索 扩展 服务 。 在 近年 来 的 研究 中 ,一 
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些 研究 者 开始 通过 系统 与 用 户 之 间 进 行 交互 来 辅助 用 
户 完成 扩展 检索 。 文 献 [61] 通过 询问 用 户 问 题 来 消 
除 歧义 和 模糊 性 ,同时 最 小 化 交互 成 本 ,以 保证 用 户 的 
体验 。 文 献 [62 ] 利 用 分 面 检索 (facets search) ,允许 用 
户 继续 点 击 检索 实体 在 过 滤器 中 的 属性 值 ,达到 不 断 
探索 的 目的 。 文 献 [63] 设计 的 Maverick (一 种 基于 集 
束 搜索 框架 开发 的 系统 ) 可 以 发 现实 体 中 特殊 实例 的 
框架 ,有 效 地 帮助 用 户 探索 独特 的 实体 。 此 外 ,文献 
[64] 提 出 的 JEDI( 一 种 扩展 了 SPARQL 引擎 Jena 的 系 
统 ) 对 于 用 户 了 解 特定 实体 同样 有 很 大 帮助 ,其 可 以 提 
供 知识 图 谱 中 两 个 节点 如 何 实际 连接 的 信息 ,包括 路 
径 和 路 径 上 的 节点 ,而 不 仅仅 显示 两 个 节点 是 否 连 接 。 

随 着 检索 逐步 面向 非 专业 用 户 , 检 索 结果 的 多 样 
性 和 多 层次 化 的 问题 越 来 越 受 到 重视 。 文 献 [65] 设 
计 蚁 X2Q( 一 种 利用 提供 示例 实现 交互 式 的 系统 ) 基 
防 导 户 输入 的 短语 给 用 户 提供 查询 建议 ,返回 知识 图 


回 绪 果 同 质 。 文 献 [67] 则 根据 实体 的 上 下 文 信息 , 包 
导体 在 知识 图 谱 中 出 现 的 频次 以 及 实体 类 型 的 层 
返回 实体 的 合适 类 型 。 


a 实体 推荐 是 指 根据 用 户 的 检索 请 求 提供 相关 对 应 
实体 的 建议 ,以 帮助 用 户 更 好 地 获得 检索 结果 。 与 传 


用 疡 提供 跨 领 域 的 实体 推荐 ;3 为 推荐 的 实体 提供 推 


实体 推荐 常用 的 方法 是 从 知识 图 谱 中 分 析 具 有 直 
接 联系 的 实体 ,利用 实体 间 已 知 的 关系 ,将 存在 直接 关 
系 的 实体 抽取 出 来 作为 相关 实体 集合 ,该 方法 被 广泛 
应 用 "1。 对 于 实体 间 存 在 的 间接 关系 ,通过 对 实体 间 
的 相似 度 进行 计算 ,判断 两 个 实体 的 相关 度 '”。 一 些 
研究 通过 知识 图 谱 中 实体 所 包含 的 属性 以 及 实体 描述 
文本 间 的 相似 性 ,来 计算 两 个 实体 的 相关 程度 。 例 如 ， 
有 研究 将 实体 对 应 的 百科 文章 进行 相似 度 计算 ,衡量 
两 个 实体 的 相关 性 '""。 也 有 采用 潜在 主题 模型 (latent 
Dirichlet Allocation ,简称 LDA) ,通过 对 实体 对 应 的 描 
述 文档 进行 建 模 并 计算 主题 的 相似 程度 ,获得 两 个 实 
体 的 相关 度 值 '” 。 

实体 推荐 需要 给 出 一 定 的 推荐 理由 , 旨 在 解释 被 
推荐 实体 与 用 户 查 询 需 求 之 间 存 在 怎样 的 相关 性 , 根 
据 推荐 理由 ,用 户 将 判断 是 否 进 一 步 了 解 该 实体 。 给 


出 推荐 理由 的 一 般 做 法 是 利用 知识 图 谱 中 已 经 存在 的 
实体 关系 或 利用 预测 得 到 的 关系 ”” ,作为 实体 间 关 
系 的 注解 ,并 推荐 给 用 户 。 然 而 ,这 种 方法 存在 信息 量 
不 足 或 注解 缺乏 语义 性 的 问题 。 为 了 更 好 地 解释 两 个 
实体 间 的 给 定 关系 ,一些 研究 采用 人 工 标注 的 方法 , 生 
成 实体 关系 的 解释 句子 ” 。 该 方法 简单 易 行 ,但 是 需 
要 为 每 一 种 实体 关系 人 工 标注 一 定数 量 的 模板 ,因此 
不 适合 于 大 规模 实体 关系 推荐 任务 。 为 了 解决 这 个 问 
题 , 文 献 [73] 提出 利用 知识 图 谱 获取 特定 的 实体 关 
系 ,自动 生成 解释 句子 模板 。 例 如 知识 图 谱 中 可 能 
量 存在 ”人 -作者 -图 书 "的 三 元 组 关系 ,依据 这 种 关 
系 构建 解释 实体 的 关系 图 ,然后 根据 这 种 关系 自动 学 
习 出 句子 模板 (如 ，[ 图书] 是 [图 书 类 型 ] 的 ,作者 是 
[人 ]。 ) , 当 给 定 新 的 三 元 组 时 , 即 可 生成 关系 解释 名 
子 。 然 而 ,该 方法 受 知识 图 谱 中 实体 关系 与 实体 属性 
覆盖 率 的 限制 ,无 法 发 现 更 多 的 实体 间 关 系 。 
3 ”未 来 发 展 方向 及 面临 的 挑战 
3.1 面向 多 元 关系 的 实体 关系 推理 

知识 图 谱 是 由 实体 和 边 构 成 的 高 度 结构 化 的 数 
据 ,这 样 的 数据 中 缠 含 了 大 量 可 以 被 机 器 所 “理解 ”的 
语义 信息 。 一 元 关系 是 指 对 应 知识 图 谱 中 的 实体 ,而 
二 元 关系 则 是 指 对 应 知识 图 谱 中 所 有 三 元 组 的 实体 
对 。 相 对 于 一 元 和 二 元 关系 ,多 元 关系 的 语义 复杂 程 
度 更 高 ,处理 起 来 难度 也 更 大 。 因 此 ,实体 关系 的 推理 
目前 多 集中 在 二 元 关系 上 ,然而 ,将 实体 间 的 多 元 关系 
简化 为 二 元 关系 ,将 带 来 大 量 的 语义 损失 。 一些 研究 
已 经 发 现 , 在 Freebase 中 ,有 超过 三 分 之 一 的 实体 存在 
多 元 关系 。 

实现 实体 间 多 元 关系 的 表达 ,意味 着 逻辑 表达 式 
的 结构 越 复 杂 , 灵 活性 越 低 , 推 理 能 力也 会 减弱 。 此 
外 ,为 了 实现 多 元 关系 的 推理 ,还 需要 多 元 数据 按照 相 
对 应 的 关系 类 型 将 对 应 的 实体 进行 排序 ,降低 了 知识 
库 的 灵活 性 。 因 此 ,如 何 兼顾 逻辑 表达 式 与 实体 的 推 
理 能 力 是 面向 多 元 关系 实体 推理 的 研究 方向 ,不 仅 需 
要 在 构建 逻辑 表达 式 时 尽 可 能 地 减少 实体 间 多 元 关系 
的 信息 结构 ,同时 还 需要 确保 推理 过 程 的 灵活 。 
3.2 检索 结果 可 解释 性 

可 解释 性 指 系 统 是 否 能 够 对 获得 的 检索 结果 给 出 
语义 解释 。 在 实体 扩展 和 实体 推荐 环节 ,可 解释 性 显 
得 尤为 重要 ,因为 系统 给 出 的 解释 起 到 了 “领域 专家 ” 
与 用 户 之 间 的 桥梁 作用 ,尤其 是 在 一 些 需 要 专业 知识 
才能 对 检索 结果 进行 解读 的 领域 。 对 检索 结果 进行 解 
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释 ,是 为 了 向 用 户 说 明 系统 提供 答案 的 “依据 ”, 现 有 
的 基于 知识 图 谱 的 检索 技术 中 ,大 多 基于 实体 的 共同 
语义 进行 解释 。 然 而 ,这 种 方法 并 没有 考虑 知识 缺失 
的 问题 ,也 没有 对 间接 语义 进行 计算 ,这 就 导致 提供 的 
共同 语义 存在 局 限 性 。 

知识 图 谱 存 在 知识 的 缺失 ,这 使 得 对 检索 结果 进 
行 解释 性 面临 着 挑战 。 为 解决 这 一 问题 ,需要 考虑 :如 
何 设 定时 间 轴 ,解决 实体 间 关系 随 着 时 间 的 变化 而 变 
化 "以 及 如 何 对 不 存在 直接 关系 的 实体 进行 解释 等 
问题 。 
3.3 与 非 结构 化 数据 融合 问题 

实体 搜索 离 不 开 丰 富 的 数据 源 。 相 对 于 知识 图 谱 
的 结构 化 特征 ,文本 、 视 频 ,语音 等 非 结构 化 数据 在 数 
全 世 远 大 于 结构 化 数据 集 , 将 结构 化 的 知识 图 谱 与 非 
结 椅 数 据 相 融 合 ,可 以 从 非 结构 化 数据 中 将 新 出 现 的 
实 俄 和 新 的 关系 补充 到 知识 图 谱 中 。 


世相 较 于 结构 化 的 数据 , 非 结构 化 数据 中 ,实体 以 及 
实 三 之 间 的 关系 更 丰富 。 为 此 ,基于 非 结构 化 数据 的 
挖 据 , 可 以 将 新 出 现 的 实体 关系 扩展 到 知识 图 谱 中 , 提 
高 考 询 的 效果 。 一 些 研 究 已 经 开始 对 两 者 的 融合 进行 
8) ,但 这 方面 研究 仍 处 于 起 步 阶段 ,缺乏 通用 的 


“目前 ,神经 网 络 算法 的 发 展 ,使 得 在 统一 的 空间 中 
HRR EE (AN SIC AS PVA 语音 等 ) 数 据 进 行 表示 成 
和 宕 能 ,利用 神经 网 络 从 非 结构 化 数据 中 构建 实体 之 
间 的 关系 ,是 值得 探索 的 研究 方向 。 
319 解决 数据 质量 的 问题 
OO 知识 图 谱 的 数据 质量 问题 将 影响 检索 的 结果 , 数 
据 质量 问题 主要 是 由 知识 缺失 和 知识 错误 造成 的 。 
大 多 数 知识 图 谱 均 存在 知识 缺失 的 问题 ,如 Wiki- 
pedia 无 法 覆盖 所 有 实体 。 同 时 现 有 的 知识 图 谱 中 也 
存在 实体 缺失 三 元 组 的 问题 "9 ,再 如 在 Freebase 中 ， 
93.8% 的 人 没有 出 生地 信息 ,78.5% 的 人 没有 国籍 信 
息 ”。 基 于 知识 图 谱 的 实体 检索 系统 如 未 考虑 知识 
缺失 的 问题 ,将 影响 最 终结 果 的 精度 。 解 决 知识 缺失 
的 问题 可 以 通过 以 下 两 种 途径 :知识 补 全 ,可 通过 基 
于 规则 的 知识 补 全 "或 表示 学 习 方 法 利用 知识 库 
本 身 的 知识 对 缺失 部 分 进行 补 全 ,然而 ,该 方法 无 法 对 
知识 图 谱 中 没有 的 实体 和 关系 进行 补 全 ;@@ 知 识 推理 ， 
利用 知识 图 谱 中 已 有 的 知识 去 推理 出 新 的 事实 ( 即 隐 
含 的 知识 ) ,从 而 尽 可 能 地 对 知识 图 谱 进行 补 全 1 。 
知识 错误 产生 的 原因 比较 多 ,可 能 是 数据 抽取 过 
程 中 的 错误 ,或 实体 之 间 存在 语义 的 歧义 ,也 可 能 是 数 


据 过 时 等 。 一 些 研究 已 经 开始 针对 特定 类 型 的 错误 进 
行 监督 ,如 文献 [81] 通 过 统计 ,可 发 现 三 元 组 中 宾语 
是 数值 型 的 错误 。 然 而 , 现 有 研究 在 错误 知识 发 现 问 
题 上 还 缺乏 统一 的 模型 。 使 用 人 工 监督 移 除 不 正确 的 
事实 元 组 是 一 种 解决 方法 ,但 人 工 标注 代价 很 高 。 也 
可 通过 知识 推理 方法 ,自动 且 高 效 地 完成 这 一 过 程 。 
3.5 用户 体验 问题 

现 有 的 对 于 知识 图 谱 检索 结果 的 评价 中 广泛 受到 
认可 和 使 用 的 , 仍 是 传统 检索 领域 的 指标 ,例如 较为 基 
础 的 精度 和 召回 率 “” ,检索 效率 (如 查询 时 间 "” ) 以 
及 可 扩展 性 “” 等。 目前 ,一 些 研 究 已 经 开始 关注 用 
户 体 验 的 问题 ,如 在 用 户 使 用 知识 图 谱 进 行 检索 前 后 
填写 问卷 ,来 收集 用 户 反馈 “>” 。 

结果 多 样 性 是 提升 用 户 体验 的 一 个 重要 因素 ， 
为 其 能 避免 结果 宛 余 , 所 以 文献 [62] 同时 考虑 相关 性 
和 多 样 性 ,以 此 来 改良 检索 结果 评价 的 指标 。 文 献 
[82 ] 则 对 Google 和 微软 Bing 的 知识 图 谱 进 行 了 比较 ， 
主要 对 比 了 两 者 的 实体 类 型 覆盖 范围 .对 列表 检索 以 
及 自然 语言 检索 的 支持 程度 。 然 而 , 现 有 研究 中 ,对 于 
日 户 体验 的 关注 多 是 分 散 和 针对 个 案 的 ,并 没有 形成 
公认 通用 的 指标 体系 ,这 在 未 来 是 值得 改进 的 地 方 。 
3.6 ” 跨 领 域 知 识 图 谱 检 索 问题 

尽管 知识 图 谱 本 身 的 主题 可 能 是 属于 一 个 或 几 个 
和 村 定 领域 的 ,但 是 用 户 的 检索 需求 可 能 并 不 局 限于 这 
些 领域 ,甚至 是 知识 图 谱 不 包含 的 领域 ,这 将 会 导致 检 
索 结 果 质 量 的 下 降 。 文 献 [83] 设 计 的 RECAP ,支持 用 
户 从 多 个 以 RDF 进行 编码 的 知识 图 谱 中 进行 信息 检 
索 和 知识 发 现 ,底层 算法 是 较为 通用 的 语法 SparQL。 
文献 L30] 则 利用 从 多 种 来 源 文献 中 提取 的 科学 元 数 
据 ,构建 知识 图 谱 的 schema 层 , 从 而 实现 跨 学 科 、 跨 区 
域 的 科学 资源 检索 。 实 体 消 歧 和 校正 仍 是 不 同 知识 图 
谱 实 体 匹配 的 重要 步骤 ,在 这 方面 ,文献 184] 采 用 字 
授 入 的 方式 测量 实体 的 相似 性 ,然后 进行 实体 匹配 ,大 
大 降低 了 计算 成 本 。 

现 有 的 跨 领 域 知 识 图 谱 检 索 解 决 方案 ,大 多 是 构 
建新 的 知识 图 谱 ,提供 通用 的 数据 特征 ,实现 多 领域 知 
识 图 谱 的 相互 链接 。 然 而 ,这 种 方法 受到 知识 图 谱 本 
身 主题 的 限制 ,同时 也 需要 大 量 成 本 和 技术 文 持 。 

3.7 个 性 化 推荐 问题 

仿 索 对 于 用 户 来 说 是 一 项 服务 ,为 提升 用 户 体 验 ， 
个 性 化 推荐 是 一 项 不 错 的 功能 。 基 于 知识 图 谱 的 个 性 
化 推荐 ,主要 体现 在 2 个 方面 :中 利用 知识 图 谱 向 用 户 
推荐 感 兴趣 的 内 容 ,检索 的 过 程 就 是 推荐 的 过 程 ,这 方 
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面 的 个 性 化 主要 针对 用 户 可 能 存在 的 需求 ,例如 引文 
推荐 , 推 特 信 息 推 荐 等;@ 在 进行 知识 图 谱 检 索 
时 ,对 于 不 同 的 用 户 ,在 检索 过 程 和 返回 结果 上 尽 可 能 
符合 该 用 户 的 特征 。 

对 于 获取 用 户 特 征 , 可 以 仅 根 据 检 索 式 推断 用 户 
BA ,这 在 初始 缺少 用 户 个 人 信息 数据 和 检索 行为 
数据 时 较 多 使 用 。 而 在 有 了 一 定 的 数据 积累 后 , 则 可 
以 利用 历史 数据 ,提升 准确 性 ,例如 针对 存在 歧义 的 实 
体 ,可 以 根据 用 户 过 往 的 搜索 主题 进行 消 上 ,或 者 对 于 
检索 式 的 扩展 ,可 以 给 用 户 提供 相似 用 户 的 检索 式 , 以 
达到 启发 效果 。 


T 
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本 知识 图 谱 作 为 知识 的 一 种 结构 化 和 语义 化 的 表达 
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CN Abstract; | Purpose/significance | To sort out the research context and key points of entity retrieval based on 


wledge graph, and explore the future development direction of this field. | Result/conclusion | This paper firstly 


We the formal definition, the implementation path and main data sources of entity retrieval on knowledge graph. 


"Phen , according to the retrieval task, the application of entity retrieval was divided into match retrieval, extended re- 


teeval and recommended recommendation, and the implementation methods were summarized. | Result/conclusion | 


With the development of the application, the research of entity retrieval based on knowledge graph began to focus on 


_li6w to improve the user’ s retrieval experience and provide a variety of retrieval results. The future research will be 


Cried out on the interpretability of retrieval results, cross domain knowledge graph retrieval and so on. 
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